为了为视频产生适当的标题,推理需要确定相关的概念并注意它们之间的空间关系以及剪辑中的时间发展。我们的端到端编码器视频字幕框架结合了两个基于变压器的体系结构,这是一种用于单个关节时空视频分析的改编变压器,以及用于高级文本生成的基于自我注意力的解码器。此外,我们引入了一种自适应框架选择方案,以减少所需的传入帧数,同时在训练两个变压器时保持相关内容。此外,我们通过汇总每个样本的所有基础真理标题来估计与视频字幕相关的语义概念。我们的方法在MSVD以及大规模的MSR-VTT和VATEX基准数据集上实现了最新的结果,并考虑了多个自然语言产生(NLG)指标。对多样性得分的其他评估突出了我们生成的标题结构的表现力和多样性。
translated by 谷歌翻译
A self-supervised adaptive low-light video enhancement (SALVE) method is proposed in this work. SALVE first conducts an effective Retinex-based low-light image enhancement on a few key frames of an input low-light video. Next, it learns mappings from the low- to enhanced-light frames via Ridge regression. Finally, it uses these mappings to enhance the remaining frames in the input video. SALVE is a hybrid method that combines components from a traditional Retinex-based image enhancement method and a learning-based method. The former component leads to a robust solution which is easily adaptive to new real-world environments. The latter component offers a fast, computationally inexpensive and temporally consistent solution. We conduct extensive experiments to show the superior performance of SALVE. Our user study shows that 87% of participants prefer SALVE over prior work.
translated by 谷歌翻译
部署AI驱动的系统需要支持有效人类互动的值得信赖的模型,超出了原始预测准确性。概念瓶颈模型通过在类似人类的概念的中间级别调节分类任务来促进可信度。这使得人类干预措施可以纠正错误预测的概念以改善模型的性能。但是,现有的概念瓶颈模型无法在高任务准确性,基于概念的强大解释和对概念的有效干预措施之间找到最佳的妥协,尤其是在稀缺完整和准确的概念主管的现实情况下。为了解决这个问题,我们提出了概念嵌入模型,这是一种新型的概念瓶颈模型,它通过学习可解释的高维概念表示形式而超出了当前的准确性-VS解关性权衡。我们的实验表明,嵌入模型(1)达到更好或竞争性的任务准确性W.R.T. W.R.T.没有概念的标准神经模型,(2)提供概念表示,以捕获有意义的语义,包括其地面真相标签,(3)支持测试时间概念干预措施,其在测试准确性中的影响超过了标准概念瓶颈模型,以及(4)规模对于稀缺的完整概念监督的现实条件。
translated by 谷歌翻译
使用遥感图像进行建筑检测和变更检测可以帮助城市和救援计划。此外,它们可用于自然灾害后的建筑损害评估。当前,大多数用于建筑物检测的现有模型仅使用一个图像(预拆架图像)来检测建筑物。这是基于这样的想法:由于存在被破坏的建筑物,后沙仪图像降低了模型的性能。在本文中,我们提出了一种称为暹罗形式的暹罗模型,该模型使用前和垃圾后图像作为输入。我们的模型有两个编码器,并具有分层变压器体系结构。两个编码器中每个阶段的输出都以特征融合的方式给予特征融合,以从disasaster图像生成查询,并且(键,值)是从disasaster图像中生成的。为此,在特征融合中也考虑了时间特征。在特征融合中使用颞变压器的另一个优点是,与CNN相比,它们可以更好地维持由变压器编码器产生的大型接受场。最后,在每个阶段,将颞变压器的输出输入简单的MLP解码器。在XBD和WHU数据集上评估了暹罗形式模型,用于构建检测以及Levir-CD和CDD数据集,以进行更改检测,并可以胜过最新的。
translated by 谷歌翻译
这项工作提出了一种基于连续的子空间学习(SSL)的生成建模方法。与文献中的大多数生成模型不同,我们的方法不利用神经网络来分析基本源分布和合成图像。所得的方法称为渐进属性引导可扩展的鲁棒图像生成(PAGER)模型,在数学透明度,渐进式内容生成,较低的训练时间,较少的训练样本以及对条件图像生成的扩展性方面具有优势。 Pager由三个模块组成:核心生成器,分辨率增强器和质量助推器。核心发电机了解低分辨率图像的分布并执行无条件的图像生成。分辨率增强子通过条件产生增加图像分辨率。最后,质量助推器为生成的图像增加了更细节。进行了有关MNIST,时尚摄影和Celeba数据集的广泛实验,以证明Pager的生成性能。
translated by 谷歌翻译
强大的机器学习是一个越来越重要的主题,专注于开发模型适应各种形式的不完美数据。由于在线技术中推荐制度的普遍性,研究人员进行了几项专注于数据稀疏性和轮廓注射攻击的鲁棒性研究。相反,我们为推荐系统提出了更全面的稳健性观点,包括多维尺寸 - 相对于子群体,转换,分布视差,攻击和数据稀疏性的鲁棒性。虽然有几个库允许用户比较不同的推荐系统模型,但没有软件库,可以在不同场景下对推荐系统模型进行全面的鲁棒性评估。作为我们的主要贡献,我们展示了一个强大的评估工具包,Recsys的强大健身房(Rgrecsys - https://www.github.com/salesforce/rgrecsys),它允许我们快速且统一地评估推荐系统模型的鲁棒性。
translated by 谷歌翻译
几种神经变性疾病涉及细胞DNA损伤的积累。彗星测定是估计DNA损伤程度的流行方式。目前关于使用深度学习来量化DNA损伤的文献呈现了超参数优化的实证方法,不包括不确定性估计。深度集合平均是估算不确定性的标准方法,但它需要几次网络培训迭代,这使得耗时。在这里,我们提出了一种方法来量化与统计测试的严格和综合方法相结合的DNA损伤程度,以便在统计测试的帮助下优化超参数。我们还使用架构,该架构允许更快地计算深度整体平均值,并使用传输学习执行适用于网络的统计测试。我们将我们的方法应用于具有超过1300张图片的Comet Assay数据集,并实现了$ r ^ 2 $ 0.84,其中输出包括每个预测的置信区间。所提出的架构是对当前方法的改进,因为它在统计上更严格的同时通过30倍加速了30倍的不确定性估计。
translated by 谷歌翻译
深度神经网络(DNN)已广泛用于许多领域,包括图像处理,医疗诊断和自主驾驶。然而,DNN可以表现出可能导致严重错误的错误行为,特别是在安全关键系统中使用时。灵感来自传统软件系统的测试技术,研究人员提出了神经元覆盖标准,作为比喻源代码覆盖率,以指导DNN模型的测试。尽管对DNN覆盖范围非常积极的研究,但最近的几项研究质疑此类标准在指导DNN测试中的有用性。此外,从实际的角度来看,这些标准是白盒,因为它们需要访问DNN模型的内部或培训数据,这在许多情况下不可行或方便。在本文中,我们将黑盒输入分集度量调查为白盒覆盖标准的替代品。为此,我们首先以受控方式选择和适应三个分集指标和学习它们在输入集中测量实际分集的能力。然后,我们使用两个数据集和三个DNN模型分析其与故障检测的统计关联。我们进一步比较了与最先进的白盒覆盖标准的多样性。我们的实验表明,依赖于测试输入集中嵌入的图像特征的多样性是比覆盖标准更可靠的指示,以有效地指导DNN的测试。事实上,我们发现我们选定的黑盒子分集度量的一个远远超出了现有的覆盖范围,以便在发生故障泄露能力和计算时间方面。结果还确认了疑似,最先进的覆盖度量指标不足以指导测试输入集的构建,以检测尽可能多的自然输入的故障。
translated by 谷歌翻译
由于Covid-19大流行,对远程学习/工作和远程医疗对电信的需求显着增加。 6G网络中的移动边缘缓存(MEC)已被发展为一种有效的解决方案,以满足全球移动数据流量的现象增长,使多媒体内容更接近用户。虽然MEC网络使能的大规模连接将显着提高通信质量,但未来有几个关键挑战。边缘节点的有限存储,大尺寸的多媒体内容以及时变用户的偏好使得能够有效地和动态地预测内容的普及,以存储在被请求之前存储最多即将到来的请求的。深度神经网络(DNN)的最新进展绘制了很多研究,以预测主动缓存方案中的内容普及。然而,在此上下文中存在的现有DNN模型遭受Longterm依赖关系,计算复杂性和不适合并行计算的不适合性。为了解决这些挑战,我们提出了一个边缘缓存框架,其与关注的视觉变压器(VIV)神经网络引入,称为基于变压器的边缘(TEGED)缓存,这是我们所知的最佳知识,正在研究第一次。此外,TEGECACH CACHING框架不需要数据预处理和附加的上下文信息。仿真结果与其对应物相比,证实了提出的TEGECACHING框架的有效性。
translated by 谷歌翻译
近年来,通过提取基于规则的模型,提高了深度神经网络(DNN)的可解释性和调试性,这一直有很大的努力,该模型近似于其决策边界。然而,当前DNN规则提取方法在提取DNN的潜在空间时,当提取称为分解算法时,要么限制为单层DNN或难以称为DNN或数据的大小。在本文中,我们通过介绍EclaIRE来解决这些限制,这是一种能够缩放到大型DNN架构和大型训练数据集的新型多项式规则提取算法。我们在各种任务中评估乳房,从乳腺癌预后到粒子检测,并表明它一直提取比当前最先进的方法提取更准确和可理解的规则集,同时使用数量级的计算资源。我们通过开源混音库(https://github.com/mateoespinosa/remix),使我们的所有方法包括规则集可视化接口,包括规则集可视化接口。
translated by 谷歌翻译